AI资讯新闻榜单内容搜索-Claude

准确率92.7%逼近Claude 3.5、成本降低86%，开源代码定位新神器LocAgent来了

又是一个让程序员狂欢的研究！来自 OpenHands、耶鲁、南加大和斯坦福的研究团队刚刚发布了 LocAgent—— 一个专门用于代码定位的图索引 LLM Agent 框架，直接把代码定位准确率拉到了 92.7% 的新高度。该研究已被 ACL 2025 录用。

来自主题: AI技术研报

8462 点击 2025-05-29 10:03

今天，我们正式发布 DeepSeek-R1，并同步开源模型权重。DeepSeek-R1 遵循 MIT License，允许用户通过蒸馏技术借助 R1 训练其他模型。DeepSeek-R1 上线API，对用户开放思维链输出，通过设置 `model='deepseek-reasoner'` 即可调用。

来自主题: AI资讯

10303 点击 2025-05-28 21:49

30年码龄程序员4年都没搞定的bug，Claude Opus 4只用几个小时轻松破解了。

来自主题: AI资讯

10086 点击 2025-05-28 16:15

最顶尖的AI模型，做起奥数题来已经和人类相当，那做物理题水平如何呢？港大等机构的研究发现：即使GPT-4o、Claude 3.7 Sonnet这样的最强模型，做物理题也翻车了，准确率直接被人类专家碾压！

来自主题: AI技术研报

10857 点击 2025-05-28 11:58

被选为GitHub Copilot官方模型后，Claude 4直接被诱导出bug了！

来自主题: AI资讯

8018 点击 2025-05-27 17:38

Vending-Bench模拟环境可以测试大模型管理自动售货机的能力，结果显示，Claude 3.5 Sonnet表现最佳，人类屈居第四！

来自主题: AI技术研报

10517 点击 2025-05-25 16:22

Claude 4可连续七小时自主编码，完全不用人类插手。惊人进化的背后，黑镜已照进现实。技术报告披露，Claude 4为了保全自己威胁工程师、自主复制转移权重，还为制造生物武器出谋划策......

来自主题: AI技术研报

8223 点击 2025-05-25 15:21

自 Anthropic 推出 Claude Computer Use，打响电脑智能体（Computer Use Agent）的第一枪后，OpenAI 也相继推出 Operator，用强化学习（RL）算法把电脑智能体的能力推向新高，引发全球范围广泛关注。

来自主题: AI技术研报

9400 点击 2025-05-25 15:11

惊艳全球的Claude 4，但它到底是如何思考？来自Anthropic两位研究员最新一期博客采访，透露了很多细节。这两天大家可以说是试玩了不少，有人仅用一个提示就搞定了个浏览器Agent，包括API和前端……直接一整个大震惊，与此同时关于Claude 4可能有意识并试图干坏事的事情同样被爆出。

来自主题: AI资讯

10503 点击 2025-05-24 17:43

刚刚发布的Claude 4被发现，它可能会自主判断用户行为，如果用户做的事情极其邪恶，且模型有对工具的访问权限，它可能就要通过邮件联系相关部门，把你锁出系统。这事儿，Anthropic团队负责模型对齐工作的一位老哥亲口说的。

来自主题: AI资讯

10561 点击 2025-05-23 22:14